智能论文笔记

FUSION: Fully Unsupervised Test-Time Stain Adaptation via Fused Normalization Statistics

Nilanjan Chattopadhyay , Shiv Gehlot , Nitin Singhal

分类：计算机视觉 | 机器学习

2022-08-30

染色揭示了抽吸物的微结构，同时创建组织病理学幻灯片。染色变异被定义为源和目标之间的色差差异，是由于染色过程中的特征变化引起的，导致分布变化和目标的性能差。染色归一化的目的是将目标的色谱分布与源的色谱分布相匹配。然而，染色归一化会导致潜在的形态变形，从而导致错误的诊断。我们提出了Fusion，这是一种通过在无监督的测试时间方案中调整模型来促进污渍适应的新方法，从而消除了目标末端进行重大标记的必要性。 Fusion通过更改目标的批准统一统计数据，并使用加权因子将其与源统计融合在一起。根据加权因子，该算法减少到两个极端之一。尽管缺乏培训或监督，但融合超过了分类和密集预测（细分）的现有等效算法，如两个公共数据集上的全面实验所证明的那样。

translated by 谷歌翻译

HTML版本

Linear programming word problems formulation using EnsembleCRF NER labeler and T5 text generator with data augmentations

JiangLong He , Mamatha N , Shiv Vignesh , Deepak Kumar , Akshay Uppal

分类：自然语言处理 | 人工智能

2022-12-30

We propose an ensemble approach to predict the labels in linear programming word problems. The entity identification and the meaning representation are two types of tasks to be solved in the NL4Opt competition. We propose the ensembleCRF method to identify the named entities for the first task. We found that single models didn't improve for the given task in our analysis. A set of prediction models predict the entities. The generated results are combined to form a consensus result in the ensembleCRF method. We present an ensemble text generator to produce the representation sentences for the second task. We thought of dividing the problem into multiple small tasks due to the overflow in the output. A single model generates different representations based on the prompt. All the generated text is combined to form an ensemble and produce a mathematical meaning of a linear programming problem.

translated by 谷歌翻译

Privacy Aware Experiments without Cookies

Shiv Shankar , Ritwik Sinha , Saayan Mitra , Moumita Sinha , Viswanathan Swaminathan , Sridhar Mahadevan

分类：人工智能

2022-11-03

Consider two brands that want to jointly test alternate web experiences for their customers with an A/B test. Such collaborative tests are today enabled using \textit{third-party cookies}, where each brand has information on the identity of visitors to another website. With the imminent elimination of third-party cookies, such A/B tests will become untenable. We propose a two-stage experimental design, where the two brands only need to agree on high-level aggregate parameters of the experiment to test the alternate experiences. Our design respects the privacy of customers. We propose an estimater of the Average Treatment Effect (ATE), show that it is unbiased and theoretically compute its variance. Our demonstration describes how a marketer for a brand can design such an experiment and analyze the results. On real and simulated data, we show that the approach provides valid estimate of the ATE with low variance and is robust to the proportion of visitors overlapping across the brands.

translated by 谷歌翻译

Progressive Fusion for Multimodal Integration

Shiv Shankar , Laure Thompson , Madalina Fiterau

分类：机器学习

2022-09-01

已显示来自各种来源的多模式信息的集成可以提高机器学习模型的性能，因此近年来受到了越来越多的关注。通常，这样的模型使用深度模式特异性网络来获得单峰特征，这些特征合并以获得“晚融合”表示。但是，这些设计承担了各自单峰管道中信息损失的风险。另一方面，结合早期特征的“早期融合”方法遭受了与特征异质性和高样本复杂性相关的问题。在这项工作中，我们提出了一种迭代表示的改进方法，称为渐进式融合，该方法减轻了晚期融合表示的问题。我们的模型不足的技术引入了向后连接，使后期融合的表示形式可用于早期层，从而提高了这些阶段的表示表现力，同时保留了晚期融合设计的优势。我们在任务上测试渐进式融合，包括情感检测，多媒体分析以及与不同模型的时间序列融合，以证明其多功能性。我们表明，我们的方法始终提高性能，例如，在多模式时间序列预测中，MSE降低了5％，鲁棒性提高了40％。

translated by 谷歌翻译

Context Unaware Knowledge Distillation for Image Retrieval

Bytasandram Yaswanth Reddy , Shiv Ram Dubey , Rakesh Kumar Sanodiya , Ravi Ranjan Prasad Karn

分类：计算机视觉

2022-07-19

现有的数据依赖性哈希方法使用具有数百万个参数的大型骨干网络，并且计算复杂。现有的知识蒸馏方法使用深（教师）模型的逻辑和其他功能，并将其作为紧凑型（学生）模型的知识，这要求教师的网络在上下文中与上下文中的学生模型平行进行微调。在目标环境中培训老师需要更多的时间和计算资源。在本文中，我们提出了不知道知识蒸馏的上下文，该蒸馏使用教师模型的知识而不在目标环境上进行微调。我们还提出了一种新的高效学生模型架构，用于知识蒸馏。提出的方法遵循两步过程。第一步涉及在不知道教师模型的不知道知识蒸馏的情况下预先培训学生模型。第二步涉及在图像检索的上下文上微调学生模型。为了显示拟议方法的功效，我们比较了检索结果。参数和否。在不同检索框架下，学生模型的运营与教师模型的运作，包括Deep Cauchy Hashing（DCH）和中央相似性量化（CSQ）。实验结果证实，所提出的方法在检索结果与效率之间提供了有希望的权衡。本文中使用的代码通过\ url {https://github.com/satoru2001/cukdfir}公开发布。

translated by 谷歌翻译

Moment Centralization based Gradient Descent Optimizers for Convolutional Neural Networks

Sumanth Sadu , Shiv Ram Dubey , SR Sreeja

分类：计算机视觉

2022-07-19

卷积神经网络（CNN）在许多计算机视觉应用中表现出非常吸引人的性能。通常使用基于随机梯度下降（SGD）优化技术进行CNN的训练。基于自适应动量的SGD优化器是最近的趋势。但是，现有的优化器无法在一阶时刻保持零平均值，并在优化方面挣扎。在本文中，我们提出了针对CNN的基于集中化的SGD优化器。具体而言，我们明确地将零均值约束强加于一阶力矩。提出的力矩集中化本质上是通用的，可以与任何现有的自适应动量优化器集成。提出的想法通过三种最先进的优化技术进行了测试，包括基准CIFAR10，CIFAR100和TINYIMAGENET数据集的ADAM，RADAM和ADABELIEF，用于图像分类。与建议的力矩集中化集成时，现有优化器的性能通常会提高。此外，提议的力矩集中化的结果也比现有的梯度集中化更好。使用玩具示例的分析分析表明，所提出的方法导致较短，更平滑的优化轨迹。源代码可在\ url {https://github.com/sumanthsadhu/mc-optimizer}中公开获得。

translated by 谷歌翻译

Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded Chipsets

Lu Zeng , Sree Hari Krishnan Parthasarathi , Yuzong Liu , Alex Escott , Santosh Cheekatmalla , Nikko Strom , Shiv Vitaladevuni

分类：机器学习

2022-07-13

我们为250k参数feedforward，流媒体，无状态关键字发现模型的所有组件的所有组件提出了一种新型的2阶段次级量化量化训练算法。对于第一阶段，我们使用tanh（。）在致密层的重量上使用非线性转换来调整最近提出的量化技术。在第二阶段，我们在网络的其余部分上使用线性量化方法，包括其他参数（偏见，增益，batchnorm），输入和激活。我们进行大规模实验，对26,000小时的去识别生产，远场和近场音频数据进行培训（对4,000小时的数据进行评估）。我们在两个嵌入式芯片组设置中组织结果：a）具有商品臂霓虹灯指令套件和8位容器，我们使用sub 8位权重（4、5、8位）和8位的精度，CPU和内存结果 - 网络其余部分的量化； b）具有现成的神经网络加速器，用于一系列重量位宽度（1和5位），同时提出准确性结果，我们预测记忆利用率的减少。在两种配置中，我们的结果都表明，提出的算法可以实现：a）以虚假拒绝率（FRR）的虚假检测率（FDR）在检测错误权衡（DET）曲线上具有完整浮点模型的操作点（det）曲线的奇偶校验。 ; b）计算和内存的显着降低，最大提高了CPU消耗量的3倍，并且记忆消耗改善了4倍以上。

translated by 谷歌翻译

HWRCNet: Handwritten Word Recognition in JPEG Compressed Domain using CNN-BiLSTM Network

Mudit Goyal , Abhishek Kumar Gupta , Shiv Kumar , Karan Chatwani , Shiv Ram Dubey , Satish Kumar Singh

分类：计算机视觉

2022-01-04

使用深度学习的图像的手写词识别是一个有希望性能的活跃研究区域。IT实际情况，由于安全原因，可能需要在压缩域中处理手写图像。然而，对于压缩图像的处理仍然非常有限的深度学习的利用。通过在深度学习中的最新进展中，在压缩域中处理文档图像的需要，我们提出了一个HWRCNET模型，用于JPEG压缩域中的手写字识别。所提出的模型结合了基于卷积神经网络（CNN）和双向长短期存储器（BILSTM）的经常性神经网络（RNN）。基本上，我们使用压缩域图像训练模型，并遵守89.05％字识别精度和13.37％的字符错误率非常有吸引力的性能。

translated by 谷歌翻译

Sentiment Analysis and Sarcasm Detection of Indian General Election Tweets

Arpit Khare , Amisha Gangwar , Sudhakar Singh , Shiv Prakash

分类：自然语言处理 | 机器学习

2022-01-03

社交媒体使用量增加到今天的数字世界中的历史新高。大多数人口使用社交媒体工具（如Twitter，Facebook，YouTube等）与社区分享他们的思想和经验。分析共同公众的情绪和意见对政府和商界人士来说非常重要。这是在大选时间进行各种民意调查中的大量媒体机构激活的原因。在本文中，我们曾在2019年Lok Sabha选举期间分析了印度人民的情绪，使用该持续时间的推特数据。我们建立了一个自动推文分析仪，使用传输学习技术来处理这个问题的无监督性质。我们在我们的机器学习模型中使用了线性支持向量分类方法，此外，术语频率逆文档频率（TF-IDF）方法用于处理推文的文本数据。此外，我们提高了模型的能力，以解决一些用户发布的讽刺推文，其中一些用户尚未被该领域的研究人员考虑。

translated by 谷歌翻译

Semantic Map Injected GAN Training for Image-to-Image Translation

Balaram Singh Kshatriya , Shiv Ram Dubey , Himangshu Sarma , Kunal Chaudhary , Meva Ram Gurjar , Rahul Rai , Sunny Manchanda

分类：计算机视觉

2021-12-03

图像到图像转换是最近使用生成对冲网络（GaN）将图像从一个域转换为另一个域的趋势。现有的GaN模型仅利用转换的输入和输出方式执行培训。在本文中，我们执行GaN模型的语义注射训练。具体而言，我们用原始输入和输出方式训练，并注入几个时代，用于从输入到语义地图的翻译。让我们将原始培训称为输入图像转换为目标域的培训。原始训练中的语义训练注射改善了训练的GaN模型的泛化能力。此外，它还以更好的方式在生成的图像中以更好的方式保留分类信息。语义地图仅在训练时间使用，并且在测试时间不需要。通过在城市景观和RGB-NIR立体数据集上使用最先进的GaN模型进行实验。与原始训练相比，在注入语义训练后，我们遵守SSIM，FID和KID等方面的提高性能。

translated by 谷歌翻译